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摘要 : [ 目的 /意义 ] 为 满足 数字 图 书馆 用 户 对 数值 知识 的 个 性 化 检索 需求 ,向 其 提供 细 粒 度 的 知识 服务 。 
[方法 /过程 ] 基 于 对 数值 知识 元 的 深入 分 析 , 提 出 数字 图 书馆 数值 知识 元 识别 、 抽 取 、 索 引 与 检索 方法 ,并 构建 
一 个 面向 数值 知识 元 的 检索 系统 。[ 结果 /结论 ] 通 过 实例 分 析 验 证 基于 数值 知识 元 的 细 粒 度 知识 服务 能 够 在 
一 定 程度 上 提高 检索 和 利用 数值 知识 的 效率 和 用 户 满意 度 。 
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知识 元 识别 ”知识 元 标 引 


知识 元 检索 


21 世纪 以 来 , 随 着 以 信息 技术 为 代表 的 科学 技术 
的 发 展 ,人 们 已 然 进 入 一 个 信息 爆炸 的 时 代 , 知 识 服务 
的 漠 现 给 数字 图 书馆 的 工作 带 来 了 许多 挑战 ", 现 有 
的 数字 图 书馆 的 数字 产品 大 都 采用 基于 主题 词 的 模式 
进 答 资 源 的 组 织 和 服务 ,知识 服务 的 基本 单位 通常 还 
是 贡献 ,无 法 针对 具体 问题 向 用 户 提供 细 粒 度 的 知识 
服务 2” 。 比 起 文献 级 别 的 知识 单位 ,人 们 更 多 地 希 
望 琵 够 直接 检索 到 自己 感 兴趣 的 知识 点 ,这 就 要 求 数 
字 图 书馆 将 知识 的 控制 单位 逐渐 由 粗 粒 度 的 文献 单元 
深 兹 到 细 粒 度 的 知识 元 单元 5 ,实现 从 对 知识 载体 和 
知 误 属性 特征 的 管理 到 对 知识 内 容 本 身 的 管理 ,也 即 
变 间接 知识 管理 方式 为 直接 知识 管理 方式 “ 。 知 识 元 
是 不 可 再 分 割 的 具有 完备 知识 表达 的 知识 单位 ”1 。 依 
据 知 识 元 内 容 的 不 同 ,可 以 将 知识 元 划分 为 理论 与 方 
法 知识 元 .数值 知识 元 ,事实 知识 元 等 多 种 类 型 忠 。 其 
中 ,数值 知识 元 是 指 以 数值 形式 存在 的 ,描述 客观 事物 
或 者 事件 有 关 数 值 方 面 属性 (如 时 间 、 长 度 、 高 度 、 重 
量 .百分比 销售 额 .利润 等 ) 的 知识 单元 ”。 数 值 知 识 
元 对 于 推动 数值 知识 的 利用 ,提高 人 们 检索 和 利用 数 
值 知识 的 效率 ,帮助 人 们 发 现 潜在 的 、 隐 含 的 数值 知识 
关系 等 具有 非常 重要 的 意义 。 当 前 大 多 学 者 是 从 理论 
的 角度 对 数值 知识 元 进行 了 研究 ” ,但 如 何 更 有 效 
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地 从 文本 中 抽取 完整 ,准确 的 数值 知识 元 ,仍然 需要 进 
一 步 深 入 研究 。 为 此 ,本 研究 以 数字 图 书馆 数字 馆藏 
资源 为 研究 对 象 ,对 数字 图 书馆 数值 知识 元 的 识别 、 抽 
取 \ 标 引 与 检索 进行 研究 ,以 期 细 化 数字 图 书馆 知识 服 
务 的 粒度 ,提高 数字 图 书馆 知识 服务 效率 。 


2 数值 知识 元 的 识别 与 抽取 


2.1 数值 知识 元 的 识别 与 抽取 规则 

从 数字 图 书馆 馆藏 数字 资源 中 识别 数值 知识 元 ， 
首先 应 考虑 知识 资源 的 存在 形式 ””。 知 识 不 仅 储 
藏 在 传统 的 文献 数据 库 中 ,还 广泛 分 布 在 专利 数据 , 行 
业 标准 科技 报告 等 特色 资源 库 中 。 本 研究 的 研究 对 
象 是 数值 知识 元 ,数字 馆藏 资源 中 数值 知识 元 的 描述 
多 以 句子 为 单位 ,这 种 情况 比较 适合 规则 与 模式 识别 
方法 。 为 此 ,数值 知识 元 包括 哪些 类 型 ,以 及 如 何 构建 
数值 知识 元 的 识别 规则 ,是 从 数字 馆藏 资源 中 识别 出 
数值 知识 元 的 关键 。 
数值 知识 元 的 识别 是 通过 计算 识别 规则 与 知识 元 
的 匹配 关系 来 实现 的 。 判 断 特 征 标识 之 后 的 段落 和 人 句 
子 是 否 具 有 包含 规则 标识 描述 的 知识 元 的 内 容 , 藻 有 ， 
则 特征 标识 就 是 向 导 信 息 , 其 后 的 具体 内 容 就 是 知识 
元 ;否则 特征 标识 就 不 被 选中 。 为 从 数字 馆藏 资源 
中 归纳 出 数值 知识 元 的 识别 规则 ,本 研究 首先 对 数值 
知识 元 进行 划分 。 由 于 数值 按照 功能 作用 可 以 分 为 3 
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类 :基础 数值 ,过 程 数 值 结果 数值 ,因此 ,本 研究 将 数 
字 馆 藏 资源 中 由 这 3 类 数值 构成 的 数值 知识 元 分 为 基 
础 数值 知识 元 .过 程 数值 知识 元 ,结果 数值 知识 元 3 种 
类 型 。 不 同类 型 的 数值 知识 元 有 着 不 同 的 描述 方式 ， 
句子 的 结构 和 复杂 度 也 有 较 大 的 差异 ,数值 知识 元 的 
流程 虽然 可 以 通过 有 些 数值 辅助 判定 ,但 用 句 群 或 段 
落 进行 描述 更 加 完整 准确。 通过 对 数值 知识 元 的 类 


数值 知识 元 的 位 置 ,有 助 于 后 续 的 数值 知识 元 抽取 的 
实现 。 

为 归纳 出 3 种 类 型 的 数值 知识 元 的 识别 规则 ,本 
研究 采用 文本 分 析 法 ,首先 从 13 门 学 科 中 的 核心 期 刊 
选取 20 篇 文献 ,共计 260 篇 文献 资源 ,通过 对 这 些 核 
心 期 刊 论 文 进行 分 句 ,提取 其 中 含有 数值 信息 的 完整 
句子 ,接着 筛选 分析 归纳 出 不 同类 型 的 数值 知识 元 比 
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型 剖析 以 及 描述 规则 的 构建 ,可 以 辅助 识别 出 文本 中  ” 较 共性 的 表达 方式 , 据 此 构建 出 描述 规则 如 表 1 所 示 : 
表 1 数值 知识 元 识别 规则 
类 型 数值 知识 元 结构 数值 知识 元 识别 规则 举例 
基础 数值 知识 元 ”时 间 + 主体 +Source + 谓词 + 《(… 年 … 月 … 日 ~/ 至 … 年 … 月 … 日 )A(… 年 … 月 … 日 )/( 截 至 …/ 截至 2010 年 12 月 ,从 中 国 引文 
数值 + 单位 + 指标 截止 …/ 日 期 /时 间 为 …) + 主体 + (从 /在 /以 /选取 …) + Source + ”数据 库 下 载 了 相关 领域 的 100 
(回收 /收集 /采集 /发 放 /获取 /选取 /下 载 /提供 /进行 /得 /为 /有 / ”篇 文章 
是 /达到 /有 /共计 …) + 数值 + 单位 (如 :个 篇 . 件 .元 等 ) + 指标 

二 寺 间 + 主体 + Souree + 谓词 + (… 年 … 月 … 日 ~/ 至 … 年 … 月 … 日 )/(… 年 … 月 … 日 )/( 截 至 …/ 采集 时 间 为 2012 年 3 月 ,对 万 
ee 标 + 数值 + 单位 截止 …/ 日 期 /时 间 为 …) + 主体 + (从 /在 /以 /选取 …) + Source + ” 方 和 CSSCI 两 大 中 文 期 刊 数据 
a (回收 /收集 /采集 /发 放 / 获 取 / 选 取 / 下 载 /提供 /进行 /得 /为 /有 / ” 库 收集 了 论文 数据 共计 4886 篇 
是 /达到 /有 /共计 …) + 指标 + 数值 + 单位 (如 :个 .篇 . 件 .元 等 ) 

攀 数 信 知 识 元 时间 + 主体 + 指标 + 谓词 + 数 。(… 年 … 月 … 日 ~/ 至 … 年 … 月 … 目 )A(… 年 … 月 … 日 )/( 截 至 …/ 2010 年 5 月 8 日 ,各 试 件 的 位 
一 值 + 单位 截止 …/ 日 期 /时 间 为 …) + 主体 + (最 大 值 /最 小 值 /权重 /六 值 / 维 。 移 延性 系数 均 达到 了 3.0 

© 

SS 度 /临界 值 /相似 值 /… 率 /) + (达到 /为 / 非 / 介 于 /处 于 / 取 / 为 /大 

| 于 /等 于 /小 于 …) + 数值 + 单位 

ee 时 间 + 数值 + 单位 + 主体 + 指 。 〈(… 年 … 月 … 日 ~/ 至 … 年 … 月 … 日 )/(… 年 … 月 … 日 )/( 截 至 /截至 2016 年 7 月 20 日 ,在 300 
©O 标 + 谓 词 截止 …/ 日 期 /时 间 为 …) + 在 数值 ~ 数值 + 单位 + 范围 内 + 主体 -600% 范 围 内 , 热 失重 的 速率 
CO) + 指标 + 谓词 增 大 。 

re H 间 + 主体 + 指标 + 谓词 + 数 。(… 年 … 月 … 日 ~/ 至 … 年 … 月 … 日 )A(… 年 … 月 … 日 )/( 截 至 …/ ”2013 年 ,人 才 网 站 的 查 全 率 达 

| 值 + 单 位 截止 …/ 日 期 /时 间 为 …) + 主体 + (中 /过 /好 /到 /有 / 定 / 含 /内 ) 的 ”到 80.67% 

A ( (分 别 / 均 / 仅 ) ( 认 / 设 / 定 /成 分 / 示 / 本 / 改 / 否 ) 为 /达到 / 仅 有 /下 

~ 降 / 上 升 /提高 到 /大 概 为 /最 低 为 ) + 数值 + 单位 

me 时 间 + 数值 + 单位 + 主体 + 指 。(… 年 … 月 … 日 ~/ 至 … 年 … 月 … 日 )/(… 年 … 月 … 日 )/( 截 至 …/ 截至 2015 年 6 月 ,56 位 核心 作 
>< 标 + 谓 词 截止 …/ 日 期 /时 间 为 …) + 数值 + 单位 + 主体 + 指标 + 谓词 者 的 文献 被 引 数 超过 了 其 他 
© 寺 间 + 主体 + 谓词 + 数值 + 单 、(… 年 … 月 … 日 ~/ 至 … 年 … 月 … 上 日)/(… 年 … 月 … 日 )/( 截 至 …/ 2015 年 10 月 8 日 ,当地 获得 了 
SC 位 + 指标 截止 …/ 日 期 /时 间 为 …) + 主体 + (获得 /得 到 /实现 /取得 ) + 数值 ”政府 3 000 万 元 的 补助 

它 + 单位 + 指标 


2. 匈 基于 规则 的 数值 知识 元 的 识别 与 抽取 

依据 数值 知识 元 结构 与 识别 规则 ,本 研究 设计 数 
值 知识 元 的 抽取 方法 , 见 图 1。 数值 知识 元 抽取 的 基 
本 流程 包括 :文本 分 句 、 分 词 及 词性 标注 .句子 过 滤 数 


分 词 、 词 性 标 
注 、 依 存 分 析 


文本 内 容 分 析 


=>》 
数字 馆藏 资源 
( 纯 文 本 ) 


属性 识别 与 抽取 等 步骤。 由 于 基于 内 容 分 析 


值 知 识 元 


法 的 数值 知识 元 识别 规则 的 提取 已 经 在 2. 1 节 详 细 论 
述 ,因此 ,下 文 将 详细 论述 其 它 各 步骤 的 具体 实现 过 


程 。 


数值 知识 
是 基 元 提取 数 全 知识 元 
竺 : a 


数值 知识 元 
识别 规则 


1 数值 知识 元 的 抽取 流程 


2.2.1 文本 分 名 “首先 将 选取 的 文献 资源 (PDF 格 
式 ) 转 变 为 纯 文本 格式 ,去 掉 其 中 的 不 相关 信息 ,例如 
文献 目录 、 图 片 等 ,依据 语句 标识 符 (如 。;?! 等 ) 对 文 
本 进行 分 句 。 


到 
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2.2.2 分 词 及 词性 标注 ”以 句子 为 单位 ,生成 句子 短 
语 结构 ,并 进行 词性 标注 ,对 文本 中 的 每 个 词 选 择 一 个 
最 有 可 能 的 词类 ,包括 名 词 动词 . 数 词 . 量 词 等 ;去 除 
停 用 词 ,包括 形容 词 . 冠 词 等 语义 内 容 很 少 的 词 。 


mw 和 世间 于 
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2.2.3 匹配 前 文中 数值 知识 元 的 识别 规则 定义 了 
不 同类 型 数值 知识 元 语句 中 的 线索 词 (如 数值 .单位 
等 ) 以 及 这 些 线索 词 之 间 的 组 配 结构 。 基 于 这 些 数 值 
知识 元 识别 规则 ,将 其 与 分 词 后 的 语句 进行 匹配 ,定位 
到 数值 知识 元 所 在 句 群 或 段落 ,从 而 达到 提取 符合 这 


据 量词 模式 库 匹 配 和 抽取 数值 之 后 的 量词 。 

(7) 来 源 的 识别 方法 。 在 文本 分 析 时 即 可 识别 出 
该 条 信息 出 自 哪 篇 文献 ,并 抽取 出 其 URL 地 址 。 
2.2.5 生成 数值 知识 元 ”将 结果 进行 存储 ,形成 数值 
知识 元 库 ,以 方便 数值 知识 元 的 进一步 共享 与 分 析 利 


些 规 则 的 候选 句子 的 目的 ,它们 构成 了 数值 知识 元 抽 
取 的 语句 集合 。 

2.2.4 ”数值 知识 元 提取 ”该 步骤 的 主要 任务 是 根据 
数值 知识 元 结构 ,获取 数值 知识 元 的 主体 指标. 时间、 
谓词 数值 单位 ,来 源 等 属性 。 各 属性 的 具体 抽取 规 
则 如 下 : 

(1) 主 体 的 识别 与 抽取 。 数 值 知识 元 的 主体 主要 
包括 地 区 行业、 机 构 3 种 类 型 ,可 借助 行业 词 表 、 机 构 
特征 词 表 , 地 名 专用 切 词 词典 等 识别 行业 名 称 .中 文 机 
构 客 称 ` 县 级 以 上 行政 区 域 以 及 县 以 下 地 域 等 ,其 中 ， 
姐 英 文本 中 没有 指明 地 区 , 则 为 “中 国 ”。 

2 ) 指标 的 识别 方法 。 数 值 知识 元 中 的 指标 是 指 
知 刘 元 所 表达 的 数值 信息 主题 ,一 般 以 名 词 为 主 , 与 数 
值 或 单位 相 邻 组 合成 短语 ,可 以 采取 中 文 自 动 分 词 技 
相 双 及 词性 标注 ,抽取 出 数值 知识 元 中 的 指标 ,并 建立 
指标 库 辅助 数值 知识 元 主体 的 抽取 。 

O 〇 G3) 时 间 的 识别 方法 。 在 文本 信息 中 ,时 间 信 息 
的 表达 方式 复杂 多 样 , 不 仅仅 是 简单 的 日 期 表示 ,还 包 
括 复合 时 间 短 语 、 段 时 间 词 等 ,例如 “截止 今年 6 月 份 ” 
“2045 年 10 月 5 日 上 午 "等 。 为 了 准确 的 识别 这 些 复 
杂 将 时 间 表 达 形 式 ,将 时 间 的 表达 方式 归纳 为 一 般 化 
的 杰 种 :时 间 ( 例 如 : 九 点 四 十 分 ) 日 期 (例如 :2017 年 
4 局 12 日 ) .时 间 词 (例如 :今年 上午) . 段 时 间 ( 例 如 : 
一 个 月 ,两 年 ) 。 而 在 数值 知识 元 的 识别 过 程 中 ,根据 
本 文 定义 的 时 间 信 息 的 表达 模式 ,可 以 通过 抽取 同一 
分 句 中 距离 指标 最 近 且 最 新 的 时 间 来 识别 数值 知识 元 
的 时 间 。 对 于 时 间 不 具体 的 知识 元 ,直接 删除 不 要 。 

(4) 谓 词 的 识别 方法 。 根 据 数值 知识 元 的 表达 模 
式 ,谓词 一 般 处 于 数值 或 指标 的 前 方 , 且 词性 为 动词 
或 者 介词 与 动词 的 结合 ,如 * 比 去 年 下 降 "。 

(5) 数 值 的 识别 方法 。 根 据 汉语 用 语 习惯 ,数值 
信息 可 以 分 为 3 类 :基数 类 数值 ,是 指 相对 单纯 的 数 
字 , 包 括 整数 .小数 分 数 等 ,例如 五 十 , 百 分 之 五 ,六 点 
五 等 ;序数 词 ,以 某 些 基数 词 与 第 "的 组 合 方式 为 主 ， 
例如 第 五 .第 二 等 ;特殊 数 词 ,是 指 用 非 基数 词 的 汉字 
表示 数量 ,程度 或 范围 的 形式 ,例如 若干 .大半 等 。 

(6) 单 位 的 识别 方法 。 单 位 是 指 与 数值 进行 组 合 
的 量词 ,例如 个 .只 ,元 等 ,可 以 采用 有 限 自动 机 算法 依 


放 。 


3 ”数值 知识 元 的 索引 与 检索 
数值 知识 元 是 数字 图 书馆 数值 知识 构建 的 基 元 ， 
数值 知识 元 索引 与 检索 更 是 细 粒 度 知识 组 织 与 服务 的 


重要 环节 ,对 数值 知识 元 的 存储 、 检 索 与 使 用 具有 重要 
的 意义 。 
3.1 数值 知识 元 的 描述 架构 

目前 ,国内 对 数值 知识 元 描述 架构 的 研究 较 少 ,学 
者 们 的 研究 成 果 也 具有 差异 。 本 研究 通过 分 析 , 提 出 
更 为 一 般 化 的 数值 知识 元 实体 对 象 结构 的 描述 框架 ， 
该 框架 从 知识 标识 ,知识 描述 ,知识 关系 3 个 层面 构建 
数值 知识 元 的 实体 对 象 结构 ,具体 如 表 2 所 示 : 

表 2 数值 知识 元 描述 架构 


结构 层次 描述 内 容 
标识 组 数值 知识 元 的 名 称 
描述 组 数值 知识 元 的 时 间 .主体 .指标 .谓词 .数值 单位 
关系 组 数值 知识 元 的 来 源 


其 中 ,知识 标识 组 描述 数值 知识 元 在 存储 、 利 用 方 
面 的 唯一 标识 ,例如 数值 知识 元 的 名 称 ,是 对 该 数值 知 
识 元 内 容 的 一 种 高 度 概述 ;知识 描述 组 主要 描述 数值 
知识 元 的 本 质 内 容 与 内 在 属性 ,如 数值 知识 元 的 主体 、 
指标 .数值 .单位 等 ;知识 关系 组 主要 描述 数值 知识 元 
与 资源 间 的 关系 ,例如 数值 知识 元 的 来 源 , 可 以 链接 到 
包含 该 知识 元 的 载体 ,从 而 获得 更 加 完整 的 相关 信息 。 
3.2 数值 知识 元 索引 

数值 知识 元 的 索引 工作 是 指 对 数值 知识 元 所 讨论 
的 主题 与 相关 属性 (如 数值 主体、 指标 等 ) 构建 索 引 ， 
以 确定 其 检索 标识 和 指出 其 所 在 位 置 ,实现 快速 准确 
检索 的 目标 “。 基 于 上 文中 提出 的 数值 知识 元 的 描 
述 架 构 , 本 研究 决定 从 知识 标识 、 知 识 描 述 、 知 识 关系 
3 方面 对 数值 知识 元 进行 索引 , 现 提 出 数值 知识 元 的 
标 引 流程 , 见 图 2。 数 值 知识 元 的 索引 流程 主要 包括 : 
言 息 抽取 模块 分词 模块 特征 提取 模块 和 索引 建立 模 
块 。 
3.2.1 信息 抽取 信息 抽取 模块 的 主要 功能 是 从 数 
值 知识 元 库 中 抽取 出 相关 信息 ,以 便 建 立 面向 各 数值 
知识 元 的 索引 。 由 于 本 研究 在 对 数值 知识 元 进行 索引 
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,信息 抽取 |_ 文本 分 司 _ 恢 引 建 吉 _ 慰 引 优 介 -ff 
数值 知识 元 


2 数值 知识 元 的 标 引流 程 


时 ,借助 Lucene 这 一 高 性 能 的 搜索 引擎 架构 ,该 索引 
架构 以 Document 为 索引 的 基本 单位 , 而 Document 作 
为 Lucene 索引 对 象 ,又 是 由 许多 域 (field) 构成 ,因此 ， 
信息 抽取 的 任务 就 转化 为 从 数值 知识 元 中 抽取 出 组 成 
Document 的 域 的 过 程 。 由 数值 知识 元 的 描述 架构 可 
知 ,数值 知识 元 主要 包括 :名 称 、 时 间 、 主 体 、 指 标 、 谓 
词 数值 ,单位 来 源 等 组 面 ,由 于 这 些 组 面 在 检索 时 都 


需要 展示 给 用 户 , 这 就 要 求 把 这 些 组 面 作为 构成 Docu- 
ment 的 域 。 从 数值 知识 元 中 抽取 出 组 成 虚拟 文档 
Doegment 域 的 过 程 如 图 3 所 示 : 


图 3 ” Document 的 创建 


“一 需要 指出 的 是 ,Document 对 象 中 不 同 的 Field 域 具 

引 同 的 要 求 和 功能 。 为 此 ,在 从 数值 知识 元 中 抽取 
组 疫 Document 的 域 之 后 , 接 下 来 要 确定 每 个 域 的 类 
型 C3 具体 包括 : 

(1) Keyword 域 。 这 种 类 型 的 域 不 需要 被 分 析 , 但 

是 在 索引 过 程 中 会 被 逐 字 地 索引 并 存储 。 该 类 型 的 域 
比较 适用 于 原始 值 , 也 就 是 那些 需要 被 全 部 保留 的 域 。 
在 对 数值 知识 元 对 象 进行 索引 时 ,由 于 组 成 Document 
的 “时 间 ” 域 “数值 ” 域 “ 数 值 ” 域 “单位 ” 域 均 不 需 
要 被 分 析 ,但 是 需要 被 索引 ,因此 被 定义 为 Keyword 类 
型 的 域 。 
(2) UnIndexed 域 。 这 种 类 型 的 域 既 不 需 被 分 析 
也 不 需要 进行 索引 ,但 是 该 域 的 值 需要 被 存储 在 索引 
文件 中 。 该 类 型 的 域 比较 适合 于 那些 需要 和 搜索 结果 
一 并 被 显示 出 来 ,但 用 户 在 检索 时 又 不 会 将 它 的 值 直 
接 用 于 搜索 的 情形 。 在 对 数值 知识 元 对 象 进 行 索引 
时 ,由 于 数值 知识 元 的 “来 源 ” 域 需要 在 检索 结果 中 显 
示 给 用 户 但 用 户 不 可 能 用 于 检索 ,因此 将 "来源 ” 域 定 

义 为 UnIndexed 类 型 的 域 。 
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(3 ) Text 域 。 这 种 类 型 的 域 需 要 被 分 析 且 索引 ,但 
可 以 被 存储 在 索引 文件 中 ,也 可 以 不 被 存储 在 索引 文 
件 中 。 在 对 关联 数据 实例 对 象 进行 索引 时 ,作为 数值 
知识 元 “名 称 ”“ 主 体 "“ 指 标 ”“ 谓 词 ” 部 分 需要 被 分 析 
并 且 进 行 索引 ,因此 将 这 些 域 定义 为 Text 类 型 的 域 。 
3.2.2 文本 分 词 ”本 研究 在 对 数值 知识 元 进行 中 文 
分 词 和 词性 标注 时 采用 了 Stanford Segmenter 中 文 分 词 
器 。 之 所 以 选择 该 分 词 系 统 的 一 个 重要 原因 在 于 
Stanford Segmenter 中 文 分 词 器 文 持 用 户 自己 定义 的 词 
典 , 可 以 将 自 定义 的 词语 集成 到 分 词 系统 中 去 ,从 而 提 
高 分 词 的 灵活 性 。 数 字 馆 藏 资源 中 的 数值 知识 元 使 用 
的 词语 通常 是 专业 性 较 强 的 长 词 , 因 此 ,在 对 数值 知识 
元 的 索引 内 容 进行 分 词 时 , 自 定 义 一 个 专业 词 表 是 非 
第 有 必要 的 ,为 此 ,本 研究 定义 了 一 个 收录 大 量 专业 词 
汇 ,短语 和 搭配 词 的 领域 词典 ,以 适应 数值 知识 元 的 索 
引 内 容 分 词 的 需要 ,并 将 自 定义 的 词典 集成 到 Stanford 
Segmenter 中 文 分 词 器 中 ,从 而 大 大 提高 分 词 的 准确 
性 。 
3.2.3 索引 建立 索引 建立 模块 的 主要 功能 是 创建 
面向 数值 知识 元 实例 对 象 的 倒 排 文档 ,主要 包括 7 个 
索引 文件 名称” 时间” 主体 “指标 ”谓词 ”“ 数 
值 “ 单 位 索引。 具体 实现 过 程 如 下 : 

(1) 生 成 Document。 在 Document 中 所 有 的 Field 
都 存储 在 一 个 Vector 类 型 的 数组 中 ,以 便 Lucene 遍历 
所 有 的 field 信息 。 具 体 来 说 ,向 Document 中 索引 域 的 
代码 如 下 : 

Document doc = new Document ( ) ; 

Field fl = new Field (“名 称 ”,“valuel”, Field. 
Store. YES, Field. Index. TOKENIZED ) ; 

Field {2 = new Field (“时间 ”, “value2”, Field. 
Store. YES, Field. Index. UN_TOKFNIZFD ) ; 

Field f3 = new Field (“主体 ”,“value3”, Field. 
Store. YES Field. Index. TOKENIZED ) ; 

Field 伺 = new Field (“ 指 标 ”,“value2”，Field. 
Store. YES Field. Index. UN_TOKFENIZED ) ; 

Field 各 = new Field (“谓词 ”,“value3”, Field. 
Store. YES, Field. Index. TOKENIZED ) ; 

Field f6 = new Field (“数值 ”,“value2”, Field. 
Store. YES, Field. Index. UN_TOKFNIZFD ) ; 

Field f7 = new Field (“单位 ”,“value2”, Field. 
Store. YES, Field. Index. UN_TOKFNIZFD ) ; 

doc. add(fl ) ;doc. add (f2) ;doc. add(f3) ;doc. add 
({4);doc.add({f5) ;doc. add({6) ;doc.add(f7); 
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(2) 初 始 化 IndexWriter。 初 始 化 IndexWriter 的 主 
要 目的 是 创建 一 个 索引 器 。IndexWriter 索引 器 的 主要 
作用 是 将 Document 加 入 到 索引 中 去 ,实现 面向 Docu- 
ment 的 索引 创建 ,并 合并 各 种 索引 段 ,以 及 控制 与 索引 
相关 的 各 方面 ,如 删除 索引 等 操作 。 

(3) 创建 索引 。 初 始 化 mdexWriter 之 后 , 接 下 来 
将 可 以 借助 mdexWriter 向 索引 目录 中 添加 所 有 Docu- 
ment。IndexWriter 提供 了 很 多 简单 的 接口 ,本 研究 主 
要 借助 public void addDocument ( Document doc) , 向 索 
引 中 添加 已 经 创建 好 的 Document ,以 实现 索引 的 创建 。 
3.2.4 索引 优化 ”优化 索引 主要 是 在 建立 索引 之 后 ， 
对 整个 索引 目录 内 的 索引 文件 进行 合并 ,从 而 保证 检 
索 时 的 效率 。 为 此 ,在 完成 面向 关联 数据 实例 对 象 的 
壳 习 之 后 ,本 研究 借助 mdexWriter 的 optimize( ) 方法 
对 朗 引 文件 进行 优化 ， 使 得 索引 目录 中 所 有 的 索引 文 
优生 并 为 一 个 索引 文件 ,从 而 大 大 减少 目录 中 索引 文 
的 数量 忆 提高 检索 的 速度 。 

3 乓 数值 知识 元 检索 

3(851 数值 知识 元 的 名 称 检索 ”用户 在 输入 检索 词 
8 六 常 由 于 使 用 经 验 不 足 ,查询 处 理 方法 的 缺陷 等 原 
际 间 到 检索 结果 不 能 真实 地 反映 用 户 的 实际 检索 需 
并 查 全 率 与 查 准 率 较 低 ,难以 形成 有 效 的 检索 。 由 于 
浆 信 知识 元 的 名 称 是 知识 元 内 容 中 多 个 关键 字 的 结 
全 3 瑚 户 在 选择 检索 词 时 不 一 定 能 够 精确 地 定位 到 数 
合生 识 元 的 完 整 名 称 , 因 此 本 研究 中 数值 知识 元 的 名 
称 网 索 将 选取 模糊 检索 的 方式 。 

-三 模糊 检索 是 通 过 设置 单个 检索 词 x 在 文档 中 的 隶 
忆 鸭 ， e [0,1] 来 反馈 检索 结果 ,v 越 大 代表 检索 词 与 
文档 的 相关 性 越 高 "”。 用 户 通 过 模糊 检索 可 以 改善 
检索 结果 的 无 序 性 ,其 检索 模块 会 根据 模糊 逻辑 运算 
得 到 检索 结果 ,并 按照 相关 度 进行 排序 。 例 如 ,输入 检 
索 词 “名 称 = 信息”, 表示 查找 数值 知识 元 库 中 名 称 包 
含有 “信息 ”的 所 有 数值 知识 元 实体 ,检索 结果 出 现 的 
数值 知识 元 名 称 可 能 为 “中 国信 息 产 业 ” ,也 可 能 
“工业 信息 部 门 ” 等 。 

3.3.2 ”数值 知识 元 的 布尔 逻辑 检索 ”数值 知识 元 的 
描述 组 包含 主体 .指标 时间、 谓词 .数值 .单位 六 元 组 
裔 性 ,为 了 提高 查 准 率 与 查 全 率 ,在 此 选择 布尔 逻辑 检 
索 模型 来 构造 知识 描述 组 的 检索 ,本 研究 中 选择 二 元 
逻辑 来 进行 探讨 , 即 一 系列 对 应 于 知识 元 特征 的 二 元 
变量 ,包括 根据 各 项 属性 从 知识 元 库 中 提取 出 的 文本 
检索 词 ” 。 通 过 布尔 逻辑 检索 ,用户 可 以 根据 检索 项 
在 文档 中 的 布尔 逻辑 关系 递交 查询 ,查询 条 件 可 以 表 


示 为 由 and .not\or 等 逻辑 词 连接 的 检索 词 序列 。 


4.1 开发 工具 与 环境 

本 研究 采用 的 存储 工具 为 MySQL 5 ,开发 工具 为 
eclipse Mar2 ,eclipse 用 于 实现 知识 元 索引 和 检索 功能 ， 
MySQL 用 于 存储 知识 元 信息 。 

系统 具体 开发 环境 为 :开发 用 PC 机 ;操作 系统 为 
win10 企业 版 ;Java 环境 为 PEE1.7;Web 服务 为 Tom- 
cat 6.045, 
4.2 系统 实现 

本 研究 从 中 国 知 网 中 下 载 了 关于 经 济 主题 的 相关 
文献 ,利用 上 文中 数值 知识 元 的 识别 与 标 引 流程 及 方 
法 从 中 抽取 出 数值 知识 元 ,存储 并 构建 数值 知识 元 库 ， 
基于 数值 知识 元 库 中 抽取 的 数据 ,根据 上 文中 提出 的 
数值 知识 元 索引 方法 进行 索引 的 构建 ,最 终 实现 一 个 
数值 知识 元 搜索 引擎 。 检 索 界 面 如 图 4 所 示 : 


网 检索 界面 X 
€ C | © localhost:8080/search/searchjsp 
洲 应 用 站 华 岳 “软考 回 SVN 使 用 --- 服 务 庙 ， 图 解决 无 法 二 ava 项 目 ” 国 3 步 帮 你 搞定 PRD 文 上。 仿 ) 云 + 校园 计划 - 及 讯 
名 称 检索 
名 称 : 检索 
布尔 逻辑 检索 
了: 条 件 : of ， 主体 : 条 件 : of ， 检索 


图 4 数值 知识 元 检索 界面 


4.2.1 名 称 检索 由 于 用 户 在 选择 数值 知识 元 的 各 
称 检索 词 时 ,不 一 定 能 精确 到 完整 的 名 称 内 容 , 因 此 在 
此 设置 模糊 检索 的 方式 来 进行 名 称 检索 。 例 如 :输入 
检索 词 “ 信 息 产业 ”, 得 到 检索 结果 见 图 5: 名 称 中 包含 
有 “信息 产业 ”字段 的 数值 知识 元 。 


国 检索 结果 页 面 


€ © © localhost:8080/search/service.do?service=name 
沪 应 用 华师 软考 SVN 使 用 --- 服 务 端 图 解决 无 法 梅 java 项 目 E ” 国 3 步 帮 你 
查询 词 : 信息 产业 ”返回 
名 称 : 2015 年 北京 电子 信息 产业 工业 总 产值 

015 年 


知 只 元 内容 : 2015 年 ， 北 京 电 子 信息 产业 的 工业 总 产值 实现 增长 3508 亿 元 。 
来 源 : 2015 年 北京 信息 化 年 鉴 


5 名 称 检索 结果 界面 


4.2.2 布尔 逻辑 检索 ”可 以 选择 多 个 检索 字段 进行 
组 合 检索 。 例 如 ,输入 检索 式 “ 主 体 = 中国” ,条 件 为 
and， 时 间 =2015 年 ” ,条 件 为 or; 得 到 检索 结果 为 主 
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和 


体 为 “中 国 ” ,或 者 时 间 为 “2015 年 ”的 数值 知识 元 ,如 
图 6 所 示 : 


网 恰 荣 结 时 页面 
各 C © localhostd € boolea' 
党 应 用 和 议 考 回 SVN 使 用 -一品 务 馆 ，。 国名 关 天 六 java 江上 加 未 古 
直 询 词 : 
中 国 and 2015 年 or ”返回 
名 称 : 2015 年 中 国生 产 总 值 
5 


谓词 : 为 

数值 : 10.87 

单位 ; 万 亿美 元 

知识 元 内 容 : 中 国 的 生产 总 值 在 2015 年 为 10.87 万 亿美 元 。 
来 源 : 新 常态 下 中 美 综合 经 济 实 力 对 比 

名 称 : 2007 年 中 国旅 游 外 汇 收 入 

时 间 : 2007 年 

主体 : 中 国 

指标 : 旅游 外 汇 收入 

谓词 :为 

数值 : 419.19 

单位 : 亿美 元 

知识 元 内 容 : 2007 年 ， 中 国 的 旅游 外 汇 收入 为 419.19 亿 美元 。 
来 源 : 底 游 外 汇 收入 、FDI 与 国内 生产 总 值 的 协 整 分 折 
名 称 : 2007 年 中 国 根 食 总 产 虽 

时 间 : 2007 年 

主体 : 中 国 

指标 : 粮食 总 产量 

训 词 : 高 达 

数值 : 5.016 


单位 ; 亿 元 
知识 元 内 容 : 中 国 的 粮食 总 产量 在 2007 年 高 达 5.016 亿 吨 。 
来 源 : 城市 信 向 、 城 乡 收入 差距 与 中 国 农业 增长 
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4GB 实验 评价 

@ 为了 验证 数值 知识 元 搜索 引擎 的 有 效 性 及 实用 
性 5 本 研 究 采用 面向 检索 任务 的 主观 评价 方法 , 即 通 过 
调用 户 完成 某 个 检索 任务 ,对 用 户 的 使 用 体验 进行 分 
棕 ; 沅 而 达到 对 数值 知识 元 搜索 引擎 系统 性 能 的 综合 
评价 。 具 体 流程 如 下 : 

三 (1) 设 置 4 个 具体 的 检索 任务 ,如 表 3 所 示 ; 


>C 表 3 检索 任务 
人 号 检索 任务 

将 = 
.0 2015 年 中 国生 产 总 值 是 多 少 ? 

-Ch 中 国生 产 总 值 在 哪 一 年 达到 了 10. 87 万 亿美 元 ? 

@ 2015 年 哪个 国家 的 生产 总 值 达到 了 10. 87 万 亿美 元 ? 

Q4 2015 年 中 国 的 什么 指标 达到 了 10. 87 万 亿美 元 ? 
从 表 3 可 以 看 出 ,4 个 问 名 分别 表示 了 4 个 不 同 的 


检索 任务 ,检索 任务 Q, 是 获取 数值 知识 元 的 数值 ; 检 
索 任 务 Q, 是 获取 数值 知识 元 的 时 间 ; 检 索 任务 Q; 是 
获取 数值 知识 元 的 主体 ;检索 任务 Q 是 获取 数值 知识 
元 的 指标 。4 个 检索 任务 代表 了 数字 图 书馆 用 户 不 同 
方面 的 数值 知识 元 需求 。 

(2) 邀 请 30 位 数字 图 书馆 用 户 ( 包 括 15 位 本 科 生 
和 15 位 硕士 研究 生 ) 作为 实验 对 象 ,对 数值 知识 元 搜 
索引 擎 进行 主观 评价 。 

(3) 挑 选 3 个 用 户 常 用 的 知识 检索 工具 :百度 知 
道 . CNKI 百度 学 术 作为 参照 系统 ,评价 数值 知识 元 搜 
索引 擎 的 使 用 效果 。 

(4)30 位 实验 对 象 分 别 借助 3 个 参照 系统 和 本 研 
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究 提 出 的 数值 知识 元 搜索 引擎 完成 表 3 所 示 的 4 个 检 
索 任 务 ,并 记录 每 个 实验 对 象 借助 任 一 检索 系统 完成 
每 个 检索 任务 时 点 击 鼠 标的 次 数 。 

(5) 完成 检索 任务 后 ,30 位 实验 对 象 被 要 求 立即 
填写 表 4 所 示 的 用 户 体验 表 。 用 户 体 验 表 依据 李 克 特 
5 分 法 将 用 户 的 满意 程度 分 为 5 个 级 别 :1 表示 “特别 
不 满意 ”2 表示 “不 满意 ”、3 表示 “一 般 ”" .4 表示 “ 满 
意 ”5 表示 “特别 满意 ”。30 位 实验 对 象 根据 自己 在 
完成 检索 任务 时 的 使 用 体验 进行 选择 。 

表 4 使 用 体验 表 


数值 知识 元 
搜索 引擎 
1 2 3 本 1 3 


百度 学 术 CNKI 百度 知道 


(6) 依 据 每 位 实验 对 象 的 体验 得 分 ,分 别 计算 每 
个 检索 系统 在 4 个 检索 任务 中 的 用 户 满意 度 得 分 的 归 
一 化 值 ( 用 A 表示 ) ,具体 计算 方法 见 公式 (1)。 其 中 i 
为 所 有 检索 任务 中 的 第 i 个 检索 任务 , Ai 表示 第 i 个 
检索 任务 的 用 户 体验 得 分 的 归 一 化 值 ,j 表示 所 有 实验 
对 象 中 的 第 j 位 实验 对 象 ,q; 表 示 第 j 位 实验 对 象 在 完 
成 第 i 个 检索 任务 时 的 体验 得 分 。 
A,= 3 9,/5 *30 公式 (1) 
(7) 分 别 计算 实验 对 象 借助 每 个 检索 系统 完成 每 
个 检索 任务 时 的 平均 点 击 次 数 (用 B 表示 ) ,具体 计算 
方法 见 公 式 (2)。 其 中 i 为 所 有 检索 任务 中 的 第 i 个 
仿 索 任务 ,j 表示 所 有 实验 对 象 中 的 第 j 位 实验 对 象 ， 
pi 表示 第 j 位 实验 对 象 在 完成 第 i 个 检索 任务 时 的 点 
击 次 数 。 


B= 5) ps/30 公式 (2) 

根据 实验 对 象 对 每 个 检索 系统 主观 评价 的 体验 得 

分 的 归 一 化 值 和 每 个 检索 系统 的 平均 点 击 次 数 ,对 每 

个 检索 系统 的 性 能 进行 定性 分 析 , 得 出 主观 评价 结果 。 

实验 结果 见 图 

图 7 展示 了 百度 学 术 、CNKI、 百 度 知道 .数值 知识 

元 搜索 引擎 4 个 检索 系统 在 完成 知识 检索 任务 Qi、 
Q;、Q;、Q 时 的 表现 。 

从 用 户 体验 得 分 来 看 ,数值 知识 元 搜索 引擎 的 用 

户 体验 值得 分 最 高 ,分别 为 0.79 .0.91.0.86 .0. 83 ,说 

明 30 位 数字 图 书馆 用 户 在 完成 4 项 检索 任务 时 对 数 

值 知识 元 搜索 引擎 的 使 用 体验 最 好 ,满意 度 最 高 。CNKI 
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图 7 实验 结果 


和 百度 知道 的 用 户 体验 得 分 在 0.5 到 0.7 左右 ,说 明 
30 位 数字 图 书馆 用 户 在 借助 CNKI 和 百度 知道 完成 4 
项 检索 任务 时 的 用 户 满意 度 一 般 。 百 度 学 术 的 用 户 体 
验 得 分 分 别 为 0. 37.0. 32 .0. 24 .0. 23 ,得 分 最 低 ,说 明 
3Q 全 数字 图 书馆 用 户 借助 百度 学 术 完成 4 项 检索 任 
和 各 的 用 户 满意 度 较 低 。 

加 从 点 击 次 数 来 看 ,在 借助 百度 学 术 完 成 4 项 检索 
任 区 时 ,30 位 数字 图 书馆 用 户 需 要 平均 点 击 8 次 , 需 
要 国 点 击 次 数 最 多 。 在 借助 CNKI 和 百度 知道 完成 4 
项 恰 索 任务 时 ,30 位 数字 图 书馆 用 户 需要 平均 点 击 分 
别 鸡 6 次 和 4 次 才能 检索 到 满意 的 结果 , 仅 次 于 百度 
学术 ,需要 的 点 击 次 数 也 较 多 。 在 借助 数值 知识 元 捷 


过 可 驹 完成 4 项 检索 任务 时 ,30 位 数字 图 书馆 用 户 只 
壕 要 平均 点 击 2 次 便 可 以 检索 到 满意 的 结果 ,需要 的 
点 峙 次 数 最 少 。 

"三 4 项 检索 任务 的 目的 是 为 了 获取 经 济 领域 数值 知 


误 济 的 不 同属 性 ,之 所 以 得 到 上 述 实验 结果 ,通过 分 析 
发 现 原因 主要 在 于 :百度 学 术 向 用 户 提供 的 是 知识 
载体 的 线索 ,如 文献 题名 .摘要 作者、 出 版 年 等 信息 ， 
用 户 若 想 获得 具体 的 数值 知识 元 ,需要 进一步 依据 这 
些 信息 获取 知识 载体 (文献 ) ,然后 通过 用 户 对 文献 的 
阅读 定位 查找 到 自己 所 需要 的 知识 ,这 不 仅 意 味 着 用 
户 要 通过 多 次 点 击 才能 获取 自己 所 需要 的 知识 ,也 无 
形 中 增加 了 用 户 的 认 知 负担 和 成 本 ,使 得 用 户 在 完成 
4 项 检索 任务 时 点 击 次 数 较 高 ,用 户 体验 得 分 比较 低 ， 
即 用 户 对 他 们 的 满意 度 较 差 。@CNKI 与 百度 学 术 相 
同 的 是 ,向 用 户 提供 的 仅 是 知识 载体 的 线索 ;但 与 百度 
学 术 相 比 ,CNKI 的 点 击 次 数 略 低 ,用 户 体验 值 略 高 , 原 
因 在 于 CNKI 作为 知识 检索 系统 不 仅 可 以 获得 知识 载 
体 的 线索 ,而 且 可 以 依据 该 线索 信息 从 系统 中 直接 获 
得 数值 知识 元 载体 本 身 , 然 而 在 百度 学 术 中 ,在 大 多 数 
情况 下 ,检索 得 到 的 是 二 次 文献 , 若 要 获得 知识 载体 本 


1 索 系 统 , 如 CNKI. 万 方 等 。@ 百 度 知 
道 是 直接 面向 数值 知识 内 容 本 身 的 知 
07 ” ” 识 检 索 系统 ,用 户 可 以 通过 它们 直接 
% 东 ”获得 自己 所 需 的 数值 知识 内 容 本 身 ， 
0o4 蕉 ”因此 ,用 户 只 和 需要 点 击 较 少 的 次 数 就 
”可 以 获得 自己 所 需要 的 经 济 领域 数值 
知识 内 容 , 这 也 就 意味 着 用 户 使 用 百 
度 知 道 的 认 知 成 本 较 低 ,从 而 获得 了 
仅 次 于 数值 知识 元 搜索 引擎 的 用 户 体 
验 得 分 。@ 轩 数值 知识 元 搜索 引擎 的 用 
户 体验 得 分 之 所 以 高 于 百度 知道 ,这 是 由 于 数值 知识 
元 搜索 引擎 的 知识 资源 来 源 于 数字 图 书馆 ,知识 资源 
大 都 经 过 专家 的 评审 ,质量 较 高 ;而 百度 知道 的 知识 资 
源 主要 来 源 于 网 络 用 户 , 不 仅 网 络 用 户 的 知识 水 平 参 
差 不 齐 ,而且 知识 内 容 本 身 未 经 第 三 方 审核 ,因此 知识 
资源 的 质量 无 法 得 到 保障 。 另 外 ,数值 知识 元 搜索 引 
擎 也 是 直接 面向 数值 知识 内 容 本 身 的 知识 检索 系统 ， 
检索 入 口 方面 具有 和 较 高 的 专 指 性 ,如 时 间 .单位 等 , 检 
索 对 象 是 更 加 细 粒 度 的 数值 知识 元 ,用 户 通过 它们 只 
需要 点 击 较 少 的 次 数 就 可 以 获得 自己 所 需要 的 知识 ， 
使 得 用 户 对 数值 知识 元 搜索 引擎 的 满意 度 最 高 ; 而 百 
度 知 道 .CNKI 百度 学 术 这 些 传统 的 检索 系统 人口 是 
基于 检索 词 ( 索 引 词 ) 的 , 专 指 性 较 低 ,用 户 点 击 次 数 
较 高 ; 且 检 索 对 象 大 多 为 粗 粒度 的 文献 ,不 能 直接 满足 
昌 户 的 知识 需求 ,使 得 用 户 满意 度 相 较 更 低 。 


随 着 经 济 与 科技 的 发 展 ,知识 作为 重要 的 生产 要 
素 , 已 经 成 为 主要 的 经 济 资源 与 竞争 资源 ”。 本 研究 
针对 数字 图 书馆 数字 资源 管理 的 现状 ,以 数值 知识 元 
为 研究 对 象 ,提出 数值 知识 元 的 识别 方法 与 抽取 流程 ; 
接着 基于 数值 知识 元 的 描述 框架 ,从 知识 标识 .知识 描 
述 .知识 关系 3 方面 提出 数值 知识 元 的 标 引 方法 与 检 
索 任 务 ;最 后 构建 一 个 数值 知识 元 搜索 引擎 ,实现 数值 
知识 元 的 检索 ,证 明 本 研究 提出 的 数值 知识 元 标 引 与 
仿 索 过 程 的 可 行 性 。 随 着 研究 的 逐步 深入 ,发 现 本 研 
究 还 存在 一 些 问题 与 不 足 ,如 没有 涉及 到 知识 元 之 间 
的 链接 关系 研究 ,未 能 实现 一 个 完整 的 数值 知识 元 网 
络 体系 。 因 此 ,在 以 后 的 工作 中 ,将 围绕 这 个 方面 做 出 
改进 与 完善 ,从 知识 元 链接 的 角度 ,动态 构建 更 为 完善 
的 知识 元 网 络 体系 ,实现 知识 元 的 集成 化 与 网 络 化 , 提 
高 数字 图 书馆 知识 服务 的 水 平 。 
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Abstract: [Purpose/significance | This paper aims to meet personalized retrieval needs of digital library users for 


numerical knowledge, and realize the fine -grained knowledge service. [ Method/ process | Based on the analysis of numer- 


ical knowledge element, it proposes a method of identifying, extracting, indexing and retrieving numerical knowledge ele- 


ments, and constructs a retrieval system for numerical knowledge elements. [ Result/conclusion | In addition, the case 


study shows that the meta knowledge service based on numerical knowledge can improve the efficiency and user satisfaction 


of retrieving and 
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